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摘要 : [ 目的 /意义 ] 网 络 谣言 严重 影响 网 络 正 常 信 息 的 传播 ， 对 网 络 谣言 进行 识别 有 着 重要 的 现 


实意 义 。 笔 者 构建 一 个 基于 微 博 的 网 络 谣言 敏感 词 库 ， 以 提高 网 络 谣言 的 识别 精度 。 [ 方法 /过 程 ] 针 
对 微 博 类 社交 平台 短文 本 的 特点 ， 首 先 舍弃 传统 的 分 词 算法 ， 设 计 LBCP 抽 词 算法 ， 并 结合 位 置信 息 和 
改进 的 TF-IDF 权重 来 提取 敏感 词 库 的 种 子 词 集 ， 然 后 通过 聚 类 算法 将 种 子 词 的 近义词 补充 到 词 库 中 ， 
再 将 常用 的 替代 词 也 加 入 到 词 库 中 ， 从 而 得 到 最 终 的 敏感 词 库 。 [ 结果 /结论 ] 利用 敏感 词 特征 对 谣言 
进行 判断 ， 在 提取 微 博 的 内 容 特征 、 用 户 特 征 、 传 播 特征 以 及 情感 分 析 特 征 的 基础 上 ， 新 增 敏 感 词 特征 
以 后 谣言 识别 率 有 明显 提升 ， 得 到 较 好 的 识别 效果 。 
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@@ 引 言 

对 网 络 谣言 进行 深入 分 析 有 助 于 及 时 判断 
真实 或 虚假 的 信息 , 创造 一 个 健康 的 网 络 环境 。 
目前 网 络 谣言 的 识别 多 是 从 用 户 特 征 、 传 播 特 
征 的 角度 进行 分 析 ， 而 事实 上， 谣言 敏感 词 是 
识别 网 络 谣言 的 一 个 重要 特征 ， 语 言 敏感 词 分 
析 有 助 于 提高 对 谣言 的 判别 ， 遇 制 谣言 的 草 延 
和 传播 。 


词 库 是 词汇 的 集合 体 ， 通 常 包 括 基本 词 库 
以 及 专业 词 库 ， 应 用 较 广 的 专业 词 库 包括 流行 
词 库 、 专 业 本 体 词 库 、 敏 感 词 库 ,情感 词 库 等 。 
其 中 ,， 现 有 的 敏感 词 库 主要 有 反动 敏感 词 库 、 暴 
恐 敏 感 词 库 、 色 情人 敏感 词 库 、 垃 圾 广告 敏感 词 
库 等 ， 被 广泛 地 应 用 在 各 类 贴吧 、 论 坛 以 及 垃 
圾 邮件 检测 中 。 

但 目前 还 没有 一 个 完备 的 网 络 谣言 敏感 词 
库 。 本 文 的 谣言 敏感 词 库 是 应 用 于 微 博 微 信 这 
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类 平台 的 ， 专 门 用 于 谣言 的 识别 ， 包括: OR 
实 的 事件 ， 比 如 茶 地 发 生地 震 、 骚 乱 等 子 虚 乌 
有 的 事件 ， 包 夸大 事实 真相 ， 比 如 厂商 对 自身 
产品 的 过 度 或 虚假 宣传 、 对 同行 产品 的 旗 毁 ; 
@ 过 期 信息 的 使 用 及 诈骗 ， 比 如 将 小 女孩 走失 
的 消息 更 改 时 间 地 点 或 者 电话 号 码 之 后 再 次 发 
送 ， 诱 导 人 们 拨打 有 诈骗 嫌疑 的 电话 等 。 这 些 
谣言 会 在 一 定时 期 一 定 程度 上 引发 了 社会 各 领 
域 人 们 的 关注 甚至 成 为 焦点 ， 如 果 不 及 时 处 
理 ， 其 潜在 的 安全 威胁 也 是 不 可 估量 的 ， 而 对 
于 这 些 谣言 涉及 的 敏感 词 ， 传 统 的 词 库 并 不 能 
很 好 地 识别 。 因 此 ， 笔 者 所 构建 的 敏感 词 库 是 
基于 微 博 谣言 而 建立 的 ， 有 较 强 的 实用 价值 , 为 
社交 平台 的 谣言 识别 提供 速度 和 质量 的 保证 。 


@ 相 关 工 作 


敏感 词 库 的 构建 主要 在 于 敏感 词汇 信息 的 
识别 、 敏 感 词汇 的 提取 以 及 扩展 。 其 中 ， 敏 感 
言 息 的 提取 目前 大 多 通过 人 工 标记 与 挑选 或 者 
基于 传统 权重 计算 方法 叫 去 衡量 与 选择 ， 再 基 
于 参考 词 林 ， 去 欠 代 地 识别 敏感 信息 ， 最 后 通 
过 相关 算法 进行 敏感 词 的 扩充 巴 ， 如 刘 耕 等 品 
采用 基于 广义 的 jaccard 系数 方法 来 计算 得 到 敏 
感 词 的 相关 联 词汇 。 

针对 敏感 事件 和 热点 话题 的 很 多 研究 从 敏 
感 词 库 和 热点 词 集 和 入手， 取得 了 较 好 的 效果 。 
词 库 的 构建 类 似 于 提取 文本 中 的 关键 字 ， 多 以 
已 有 的 专业 词汇 为 基础 ， 采 用 计算 特征 词 权重 
的 方法 。 徐 琳 安 号 根 据 情 感 分 类 现状 ,确定 分 类 
的 体系 ， 再 综合 各 种 情感 词汇 的 资源 来 构造 情 
感 词汇 的 本 体 ， 采 用 了 手工 分 类 以 及 自动 获取 
结合 的 方法 获取 词汇 本 体 ; Bis P 3E) N-Gram 
及 各 种 过 滤 规 则 结合 的 术语 识别 公众 日 志 妆 
据 ， 能 较 好 地 识别 发 现 健 康 类 词 集 ; C. Quan 等 
9 从 情感 类 别 符号 、 人 情绪 强度 、 情 感 词 、 程 度 
词 、 否 定 词 、 连 词 、 修 辞 等 识别 情感 种 子 词 ， 从 
而 完成 情感 词典 的 构建 ; F. Peng 等 利用 线性 
链条 件 随 机 场 (CRFs ) 来 进行 基于 字 、 词 、 多 
词 等 形式 的 领域 集成 的 中 文 分 词 ， 并 通过 基于 
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概率 的 新 词 检测 方法 进行 新 词 识别 ; 周强 是 提 
出 一 种 多 资源 融合 自动 构建 汉语 谓词 组 合 范畴 
语法 (CCO) 词 库 的 方法 ,不同 句法 语义 分 布 特 
征 ， 融 合 形成 CCG 原型 范畴 表示 ， 将 它们 指派 
给 各 资源 信息 完全 重合 的 谓词 形成 核心 词 库 ; K. 
J. Chen 等 踢 实 现 了 通过 一 个 未 知 词 提 取 系 统 来 
在 线 识别 新 闻 ， 主 要 通过 统计 信息 以 及 语法 语义 
上 下 文 等 信息 进行 新 记 识 别 ; z E UU 在 商品 
情感 词 的 提取 过 程 中 ， 基 于 商品 评论 文本 ， 从 词 
义理 解 ` 句 法 分 析 等 角度 获得 词语 间 语 义 关 系 , 并 
将 其 虞 入 到 主题 模型 ， 提 出 基于 语义 关系 约束 的 
主题 模型 SRC-LDA， 从 而 实现 主题 词 的 提取 。 

在 构造 词 库 时 ， 只 是 确定 了 基本 词 集 往往 
是 不 够 的 ， 需 要 对 其 进行 扩充 从 而 得 到 较为 完 
整 的 词 库 。 词 汇 扩展 与 关键 字 扩 展 相 似 ， 通 过 
词义 近似 或 语义 近似 展开 。H. Chen 4$"! 从 词 
典 中 提取 了 近似 语义 信息 的 词 作为 扩展 。S. Yu 
等 [1 利用 VIPS(VIsion-based Page Segmentation) 
算法 进行 查询 扩展 ， 该 算法 主要 是 通过 调用 髓 
入 在 Web 浏 览 絮 中 的 分 析 絮 来 获取 DOM 结 
构 以 及 视觉 相关 信息 (所 有 视觉 信息 都 来 自 
HTML 元 素 和 属性 ) 进行 查询 扩展 。J. M. Pnote 
和 W. B. Croft 提出 了 将 统计 语言 模型 和 信息 
检索 相 结合 ， 使 用 词 频 和 文档 频率 按 综合 频率 
对 词 信息 进行 排序 ; T. Pedersen 和 A. Kulkarni"? 
通过 聚 类 实现 类 似 的 词 的 识别 ， 然 后 将 它们 应 
用 到 语义 扩展 ; P. D. Turney 和 M. L. Litham"?! 3i 
过 计算 倾向 性 基准 词 与 目标 词汇 间 相 似 度 的 方法 
识别 词汇 语义 倾向 性 ; A. Neviarouskaya ^ "*! if 
过 同义词 和 反义词 的 关系 、 上 下 文 语义 关系 、 推 
导 关 系 以 及 与 已 知 的 词汇 单位 复合 来 进行 情感 
词典 的 扩展 。 

但 是 上 述 敏感 词 库 的 构建 方法 应 用 于 网 
络 谣言 语料库 建设 并 不 完全 合适 ， 首 先 目前 谣 
言 并 没有 可 参考 的 词 林 。 而 且 传 谣 变 化 形式 多 
样 ， 扩 展 和 传播 方式 多 种 多 样 。 某 些 词汇 出 现 
在 网 络 谣言 中 的 频率 高 ， 同 时 存在 于 正常 微 博 
中 的 频率 也 高 ， 不 能 单独 用 来 判定 谣言 。 针 对 
以 上 谣言 敏感 词 的 特点 ， 笔 者 设计 了 一 个 抽 词 
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算法 提取 敏感 词 并 进行 多 级 扩充 ， 旨 在 建立 一 
个 实用 的 网 络 谣言 敏感 词 库 。 
全 诺言 敏感 词 库 设计 
3.1 谣言 敏感 词 库 构建 的 困难 

针对 谣言 特征 所 构建 的 微 博 谣言 敏感 词 库 
是 一 个 专业 性 偏向 性 较 强 的 专业 词 库 ， 需 要 有 
大 量 的 微 博 谣言 语 料 ， 同 时 在 构建 敏感 词 库 的 
过 程 中 会 遇 到 下 述 困 难 : 

(1) 人 工 干 扰 。 谣 言 发 布 者 常常 会 采取 多 
种 方法 来 逃避 关键 词 的 匹配 过 滤 。 例 如 在 敏感 
组 合 词 汇 间 夹 杂 了 一 些 无 意义 的 数字 与 符号 , 如 
“ 抵 @ 制 ! 共 &$ 产 &0 党 ”。 然 而 这 类 复 困 
多 变 的 形式 ， 却 并 不 影响 人 们 正常 的 阅读 ， 这 
种 情况 直接 进行 敏感 词 库 匹配 是 无 法 解决 的 。 

(2) 准确 性 。 部 分 在 谣言 微 博 中 出 现 的 敏 
感 词 ， 很 多 时 候 也 会 出 现在 正常 微 博 的 文本 中 
致使 对 文本 敏感 得 分 的 判定 很 容易 出 现 偏差 。 
即 大 多 词汇 只 有 在 特定 的 语 境 中 才 会 显示 出 其 
谣言 的 特性 。 

(3) 分 词 问题 。 网 络 用 话 越 来 越 随意 ， 新 


因为 目前 的 分 词 软件 大 多 有 具有 普 适 性 ， 用 
来 针对 某 一 领域 发 现 特定 词 、 敏 感 词 、 新 疗效 
果 不 佳 ， 因 此 种 子 词 采 集 没 有 直接 分 词 ， 而 
是 设计 f LBCP(Location- Based Cohesion and 
Polymerization) 算法 进行 抽 词 ， 通 过 计算 词 的 内 
聚 度 和 外 聚 度 ， 结 合 词 权 重 和 位 置 权 重 得 到 种 
子 词 集 ; 然后 对 种 子 词 集 从 近似 词 、 关 联 词 和 
替代 词 等 方面 进行 扩展 ， 最 终 合 并 成 为 谣言 敏 
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词 、 未 登录 词 等 层出不穷 以 及 证言 具有 时 效 性 
等 使 得 传统 的 分 词 工具 不 适用 于 此 类 文本 ， 从 
而 对 谣言 识别 带 来 影响 。 

对 于 第 一 类 人 工 干 扰 的 谣言 文本 ， 即 夹杂 
符号 的 敏感 词 的 检测 与 识别 ， 笔 者 将 通过 扩充 
停 用 词 解决 ， 对 待 测 文本 分 词 之 后 进行 去 停 用 
词 等 预 处 理 方法 来 解决 ; 对 于 第 二 类 准确 性 的 
问题 ， 笔 者 引入 位 置 权重 以 及 敏感 度 权 重 来 抽 
取 敏 感 词 ， 将 词汇 在 谣言 与 正常 微 博 中 的 词 频 
比 以 及 位 置 权重 ( 词汇 是 否 处 于 标题 中 ) 作为 
衡量 的 因素 ， 同 时 对 种 子 词 集 进行 相似 词 、 关 
联 词 扩 展 ; 对 于 第 三 类 分 词 问 题 ， 笔 者 提出 基 
于 敏感 热度 的 L-CPBL 抽 词 算法 握 弃 了 传统 的 
分 词 工具 ， 基 于 内 聚 度 以 及 外 聚 度 来 提取 文本 
片段 ， 以 更 加 适用 于 网 络 社交 文本 。 

3.2 总 体 设计 

本 研究 中 网 络 谣言 敏感 词 库 构 建 的 基本 思 
路 是 : 首先 收集 网 络 谣言 语 料 ， 然 后 利用 抽 词 
算法 构建 种 子 词 集 ， 进 而 对 种 子 词 集 进行 扩展 
得 到 完备 的 谣言 敏感 词 库 ， 其 总 体 流 程 如 图 1 
所 示 : 


图 1 敏感 词 库 构建 流程 


感 词 库 。 
3.3 LBCP 抽 词 算法 

LBCP 抽 词 算法 是 考虑 了 词语 位 置 和 上 下 文 
言 息 的 抽 词 过 程 ， 其 提取 谣言 种 子 词 集 的 流程 
如 图 2 所 示 。 

LBCP 抽 词 算法 首先 设置 一 个 滑动 窗口 ， 从 
中 提取 候选 词汇 ， 计 算 候 选 词汇 的 内 聚 度 CX 
示 该 词 的 聚合 程度 ) 、 外 聚 度 ( 描述 该 词 与 上 
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题 中 取 2， 正 文中 取 1) ， 利 用 改进 的 TF-IDF 
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权重 计算 出 该 修 选 词 的 综合 得 分 并 进行 排序 , 再 
提取 排 在 前 面 的 候选 词 形 成 种 子 词 集 。 


网 络 谣言 文本 短小 随意 ， 新 词 、 流 行 词汇 
众多 ,依赖 传统 词 库容 易 带 来 较 大 误差 .笔者 
采用 的 方法 有 效 规避 了 传统 分 词 方法 过 度 依 赖 
词 库 的 问题 。 利 用 改进 的 TF-IDF 权重 计算 较 好 
地 体现 了 谣言 词汇 的 信息 完整 性 、 词 汇 的 领域 
相关 性 ， 其 中 的 位 置 权重 较 好 地 体现 了 词汇 位 
置 的 重要 性 ( 词汇 是 否 处 于 标题 中 ) 。 

3.3.1 NRE 

内 聚 度 主要 用 来 分 词 ， 一 般 取 某 一 固定 长 
度 的 窗口 ， 依 次 滑动 窗口 找到 其 中 的 分 词 。 比 
如 图 3 中 的 文本 ， 设 窗口 长 度 为 6 ( 即 每 个 词 不 
超过 5 个 字 ) ， 则 滑动 窗口 会 包含 “央视 已 经 
报道 ”6 个 字 , 从 中 计算 出 “央视 ”内 聚 度 最 高 , 因 
此 按 前 2 个 字 做 划分 ， 提 取 “ 央 视 ” 这 个 词 。 
然后 滑动 窗口 右 移 ， 取 出 “已 经 报道 此 事 ”6 个 
字 ， 进 而 提取 “已 经 ”这 个 词 。 依 此 类 推 ， 依 
次 取 到 文本 中 的 其 它 词 。 

具体 计算 内 聚 度 时 ， 需 要 先 按 滑 动 窗 
口中 的 每 一 个 字 划 分 ， 得 到 左右 两 部 分 ， 计 
算 两 部 分 在 语料库 中 的 出 现 概 率 乘积 ( 即 
p( 左 )*p( 右 )， 取 最 大 作为 分 词 的 内 聚 度 。 
例如 图 3“ 央 视 已 经 报道 ”6 个 字 ， 依 次 计 
算 : p( Xt )*p( 视 已 经 报道 )、p( 央视 )*p( 已 经 
报道 )、p( 央视 已 )*p( 经 报道 )….p( 央视 已 经 
报 )*p( 道 )， 最 终 p( 央视 )*p( 已 经 报道 ) 的 乘 
职 最 大 ， 因 此 提取 “央视 ”这 个 词 ， 并 将 该 乘 
积 作为 “央视 ”的 内 聚 度 。 

央 | 视 | 已 | 经 | 报 | 道 | 此 | 事 |.. 


图 3 计算 内 聚 度 使 用 的 滑动 窗口 


N 
~] 


计算 内 到 计算 改进 
度 EXER 的 TF-IDF 值 
diis 列表 计算 LBCP 综 合 > 种 子 词 集 
FE 
IINR e A 
度 权重 


图 2 种 子 词 集 提取 的 流程 


设 滑 动 窗口 中 的 文本 工 由 n 个 汉字 
C,C,...C, 构成 ( 见 图 3 ) ， 内 聚 度 h(x) 的 计算 首 
先 由 公式 (1 ) 找到 应 该 划分 的 候选 词 位 置 ?， 从 
而 划分 出 候选 词 x-C,C,... C; 
i=argmax{p(c): p(C;...c,),..., P(C1...C;): 

Blas oss ps6 1) ple 公式 (1) 

进而 利用 公式 (2) 记录 词 x 和 在 本 窗口 

的 内 聚 度 p(x)， 最 后 利用 公式 (3 ) 计算 该 词 在 

所 有 窗口 中 的 内 聚 度 之 和 ， 作 为 最 终 的 内 聚 度 

h(x), AX (3) 中 大 代表 词 x 在 整 篇 文档 中 出 现 
的 次 数 。 

PAX) = p(euc,...c;): p(e; ,...6,) 


公式 〈2 ) 


2 公式 (3) 
3.3.2 SRE 
单 看 一 个 候选 词汇 的 内 聚 度 ， 可 能 会 出 现 
诸如 “的 …” 组 合 被 认为 成 独立 的 词 。 所 以 笔 
者 还 考虑 了 词 的 上 下 文联 系 ， 这 里 用 外 聚 度 表 
示 。 如 果 某 个 词 能 够 被 认为 是 一 个 独立 的 词 , 那 
么 它 应 该 能 和 各 种 词 搭配 出 现在 不 同 的 语言 环 
境 中 ， 即 具有 丰富 的 “ 左 集 合 ” 和 “ 右 集合 ”。 
FRE BE HZ fi EET RE. Bri x 与 
左边 相 邻 的 词汇 组 成 的 短语 为 xx， 与 右边 相 邻 
的 词汇 组 成 的 短语 为 xx,， 则 词 x 的 外 聚 度 g(x) 
的 计算 公式 如 公式 (4 ) 所 示 : 
g(x) = min 全 > p(xx) log p(ix),— 
> px,)1og p(xx,)] 公式 (4) 
因为 烂 表 示 不 确定 性 ， 所 以 箭 越 大 ， 不 确 
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定 越 大 ， 也 就 是 这 对 词 左右 搭配 越 丰富 ， 选 择 
BR. HAALEN AE EV ABRURUG fei i. 
Hi, MRX e BRA e S. ERI LAE 
它 看 作 一 个 独立 的 、 可 以 抽取 出 来 的 高 频 谣 言 
词汇 。 
3.3.3 改进 的 TF-IDF 权重 

通过 内 聚 度 和 外 聚 度 得 到 基于 谣言 语 料 的 
大 量 新 旧 词 汇 ， 然 后 可 以 利用 这 些 词 的 权重 进 
行 第 选 。 本 文 权重 基 于 TF-IDF 计算 ,但 是 做 了 
如 下 改进 : 中 由 于 旧 新 闻 重 复 散 播 或 者 同一 条 
谣言 仅仅 修改 了 人 和 名、 地 名 、 手 机 号 码 等 张 冠 
李 戴 型 的 谣言 比较 多 ， 因 此 对 文档 频率 要 求 较 
高 ， 而 对 于 逆 文 档 频率 要 求 并 不 高 ， 不 要 求 词 
语 对 文档 有 独特 的 标识 性 ， 因 此 对 于 TF-IDF 公 
式 中 TF 和 IDF 给 予 不 同 的 权重 (公式 (5) 中 
增加 4, 使 得 TF 的 权重 值 大 于 IDF 的 权重 值 ) ; 
@ 消 除了 文档 长 度 的 不 同 对 词 权重 的 影响 ( 公 
X C5) 中 增加 分 母 , 进行 余弦 归 一 化 处 理 ) , 同 
时 通过 对 词 频 取 对 数 来 消除 词 频 大 小 差异 对 权 
重 计算 的 影响 。 词 x 改进 的 TF-IDF 权重 计算 如 
公式 (5 ) 所 示 : 


(log, (Atf -1.0) *log,( 


N 
ü - Ayr? 


(os. (Atf, 1.0) *log,( 


W (x)= 


N 2 
(1— A)idf, » 
Zu (5) 
其 中 ，N 为 微 博 总 条 数 , 4 是 词 频 TF 的 权 
E, tf 和 idf 分 别 表示 词 x KI TF (EA IDF 值 ， 公 
X C5) 右边 的 分 母 利 用 谣言 微 博 中 出 现 的 每 个 
词 x 的 TF 值 大 和 IDF 值 if 进行 余弦 归 一 化 处 
理 。 
3.3.4 位 置 权重 
针对 微 博 谣言 来 说 ， 微 博 标 题 或 者 话题 中 
的 词汇 比 内 容 词汇 更 具有 代表 性 ， 更 能 反映 出 
微 博 的 主题 ， 也 就 更 能 反映 出 微 博 主题 的 谣言 
敏感 度 。 对 微 博 文本 中 词 x 的 单个 位 置 权 重 值 
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定义 如 公式 (6) 所 示 : 
2 ietitle 
ll ietitle ”公式 (6) 
对 微 博 内 容 进 行 扫描 ,如 果 有 人 或者“ 口 ?或 
者 #， 则 将 其 视 为 微 博 的 标题 或 者 话题 ， 将 其 单 
个 位 置 权重 值 为 2， 和 否则 为 1。 词 x 位 置 权重 为 
AUN CL) 所 示 : 


i 


D L, 
MOŠEE A 

HEP, wa) 为 词汇 的 位 置 权重 。L, 表示 某 
条 微 博 i 中 词 x 的 位 置 权重 值 ，D 表示 包含 词 x 
的 微 博 总 条 数 。 

3.3.5 抽 词 算法 流程 

LBCP 抽 词 算法 的 步 又 如 下 : 

Step 1: 利用 公式 (0). 公式 (2), 公式 (3) 进 
行 分 词 〈( 词 的 长 度 不 大 于 某 个 浆 值 !) ， 并 计算 
各 分 词 x 的 内 聚 度 h(x); 

Step 2: 利用 公式 (4) 计算 各 分 词 x 的 外 聚 
度 g(x), 求 得 每 个 词 的 内 聚 度 和 外 聚 度 之 和 ， 和 
选 出 其 和 大 于 某 阔 值 9 的 词汇 ; 

Step 3: 对 筛选 出 的 词 计算 其 改进 的 TF-IDF 
权重 w(x) 和 位 置 权重 w,(x)， 根 据 公 式 (8 ) 计 
算 综 合 得 分 值 ; 

LBCP(x)=w(X) xwa) 公式 (8) 

Step 4: 按 综合 得 分 LBCP(x) 进行 排序 ， 取 
前 M 个 词汇 作为 种 子 词 集 。 

3.4 扩展 词 集 

为 了 实现 对 谣言 敏感 词 的 有 效 扩展 ， 笔 者 
主要 从 种 子 词 集 的 近似 词 、 关 联 词 以 及 替代 词 3 
个 方面 进行 词 库 的 扩展 。 

3.4.1 近似 词 集 

Word2 Vec 方法 计算 的 词 向 量 能 反映 词 的 上 
下 文 和 语义 关系 ， 因 而 近似 词 集 的 扩展 主要 通 
过 词 向 量 Word2Vec 进行 计算 ， 再 通过 肾 类 找 种 
子 词 的 相似 词 ， 从 而 得 到 基于 上 下 文 和 语义 关 
系 的 近似 词 ， 其 流程 如 图 4 所 示 : 


种 子 词 集 > 
—| 


种 子 词 集 词 向 "— 
Word2vec E 量 PL, 聚 类 | 


图 4 种 子 词 集 的 近似 词 集 扩展 流程 
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3.4.2 关联 词 集 

单个 敏感 种 子 词 可 能 出 现在 谣言 中 ， 也 可 
能 出 现在 正常 微 博 中 ， 比 如 “免费 ”这 个 词 ， 它 
既 可 能 出 现在 不 良 厂商 的 微 博 谣 言 中 ， 也 可 能 
出 现在 正规 商家 的 微 博 宣传 中 , 但 当 “ 免 费 ” 和 
“转发 ” 共 现 时 , 它 就 极 大 可 能 是 谣言 。 因此 , 对 
于 每 个 种 子 词 计 算 其 高 频率 共 现 的 词汇 ， 即 与 
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式 ， 如 “神州 六 号 ” “ 神 6”。 
经 过 以 上 3 种 扩展 ， 最 终 将 种 子 词 集 与 各 
扩展 词 集 合并 构建 了 网 络 谣言 的 敏感 词 库 。 


OX% 
4.1 数据 集 
实验 爬 取 了 新 浪 微 博 社 区 管理 中 心 、“ 语 


之 相关 度 高 的 词汇 ， 这 些 词 汇 有 助 于 提高 谣言 
的 识别 率 。 

笔者 采用 互信 息 的 方法 来 寻找 种 子 词 关联 
词 集 .种 子 词 的 关联 词 集 的 构造 流程 如 图 5 所 示 : 


En 
bz 


关联 词 集 


种 子 词 集 改进 的 关联 词 集 
互信 息 值 | 
x 


FE 
~ 


图 5 种 子 词 的 关联 词 集 的 构造 流程 


但 是 谣言 中 这 样 产生 的 成 对 词 互 信息 较 
高 ， 词 频 却 较 低 ， 这 样 对 于 谣言 的 识别 作用 不 
大 ， 因 此 在 互信 息 计 算 上 加 入 了 词 频 信 息 ， 计 
算 如 公式 (9 ) 所 示 : 


PMI(x, y)  p(x, y)log LE 
p(x)p(y) 


KP, pay) 为 词 x RI y 的 词 频 。 
3.4.3 替代 词 集 

谣言 信息 发 布 者 通常 会 采取 多 种 方式 来 逃 
避 敏 感 词 匹 配 过 滤 ， 比 如 把 谣言 敏感 词 进行 中 
英文 的 转换 或 者 缩写 等 ， 因 此 也 需要 找 出 种 子 
词 的 替代 词 集 。 这 样 的 词 处 理 量 并 不 多 ， 本 研 
究 通过 人 工 来 完成 ， 比 如 : 

(1) 拼音 : 拼音 代替 汉字 , 如“ 拐 走 ” 一 一 
“guai E” o 

(2) 英文 : 英文 代替 汉字 ， 为 种 子 词 的 英 
文 翻 译 。 

(3) 缩写 或 简写 : 种 子 词 的 常用 缩写 形 


公式 (9 ) 


272 


言 粉 碎 机 ”以 及 各 地 区 辟谣 平台 上 发 布 的 30 034 
条 谣言 。 同 时 疏 取 了 包括 中 国 新 闻 网 、 央 视 新 
闻 等 35 000 余 条 正常 微 博 作为 正 类 数据 。 这 些 
数据 都 经 过 了 包括 去 噪声 、 去 停 用 词 等 处 理 过 
程 。 去 噪 主要 是 删除 了 总 长 度 不 足 5$ 个 字 的 微 
博 ， 这 类 微 博 多 携带 信息 较 少 ， 处 理 的 意义 不 
大 ， 删 除 后 可 提高 处 理 效 率 。 
4.2 提取 种 子 词 集 

利用 第 3.2 节 中 种 子 词 的 抽取 思路 ， 将 微 博 
谣言 文本 中 长 度 不 超过 阔 值 :( 本文 取 值 为 9 ) 的 
文本 都 当 作 潜在 的 词 ， 通 过 样 例 数据 实验 确定 内 
聚 度 和 外 聚 度 的 阔 值 ， 最 后 提取 出 所 有 不 大 于 阔 
值 上 的 候选 词 。 在 处 理 过 程 中 ， 把 全 部 微 博 谣 言 
语 料 作为 一 个 整体 ， 利 用 LBCP 抽 词 算法 提取 候 
选 词 43 363 个 。 候 选 词 的 内 聚 度 、 外 聚 度 及 其 
在 谣言 微 博 和 正常 微 博 中 的 词 频 如 图 6 所 示 : 


id infoent polymerization count-rumors count-true 

实情 3.935167502 1.841074735 13 pii 
SE 5.433056885 0.517786403 106 3 
快报 2.826583357 0.449818199 25 54 
常 青 2.079441542 0.973234765 3 9 
小 孩子 6.007970388 2.087595151 39 4 
老者 1.464816385 0.241533882 2 H 
信号 4.390551062 0.49354779 27 35 
回答 5.648174794 0.890389663 66 69 
1000 3.487642478 8.816360165 485 61 
zum 1.464816385 0.183307508 2 2 
桐庐 2.144179782 0.362506117 10 6 
忽悠 4.233782827 1.143519054 10 Zn 
EC] 1.464816385 0.381876902 2 1 
幸运 2.609454099 0.38634769 28 12 
血肉 1.934479312 0.227439139 12 5 
EÈ 2.270885977 0.309373755 6 4 
E 2.1520804 9.408423209 70 60 
县 政府 2.857433791 0.216519139 12 3 
逃逸 1.87010847 0.365290265 13 32 
见 到 4.457286529 0.976786252 90 61 


图 6 候选 词汇 的 内 聚 度 、 外 聚 度 及 词 频 


在 上 述 结 果 的 基础 上 ， 结 合 位 置 权重 因 
子 ， 根 据 LBCP 综合 值 进行 排序 ， 取 前 300 
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个 作为 谣言 种 子 词 集 。 通 过 LBCP 抽 词 算法 
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挑选 出 来 的 部 分 种 子 词 集 如 表 1 Bron: 


表 1 谣言 种 子 词 集 


类 型 词 集 示例 
孩子 、 抛 走 、 扩 散 、 酬 金 、 紧 急 、 严 重 、 知 情 、 女 孩 、 帮 忙 、 转 发 、 求 、 找 、 联 系 、 死 、 爆 炸 、 死 亡 、 转 转 、 
种 子 词 集 — 钱 、 伤 、 黑 、 白 血 病 、 救 、 去 世 、 农 药 、 丢 、 瘤 证 、 偷 、 救 援 、 专 家 、 卖 、 滋 、 食 品 、 导 致 、 真 相 、 死 了 、 批 


4.3 种 子 词 集 的 扩展 

C1) 近似 词 集 扩 展 。 利 用 Word2Vec 工具 
计算 得 到 300 个 种 子 词 集 的 词 向 量 ， 再 分 别 计 
算 各 个 词 向 量 维度 上 的 均值 ， 计 算得 到 种 子 词 


捕 、 感 染 、 必 须 、 提 醒 、 杀 、 禁 用 、 失 踪 、 抢 救 、 证 实 、 罪 、 打 死 .…. 


集 的 均值 向 量 。 用 词 集 的 平均 向 量 利用 KNN 模 
型 聚 类 ， 得 到 300 个 种 子 词 最 相近 的 词 。 实 验 
中 共 取 到 与 种 子 词 集 同属 一 类 的 1 785 个 词 作为 


扩展 的 近似 词 ， 形 成 的 近似 词 集 如 表 2 Brzn : 


表 2 近似 词 集 部 分 示例 


类 型 


词 集 示例 


朋友 、 监 控 、 附 近 、 万 分 、 抱 、 留 意 、 兄 弟 、 男 人 、 告 、 姐 妹 、 联 系 人 、 双 重 、 关 心 、 婴 儿 、 达 、 人 恒 天 、 教 


近似 词 集 
轻 、 人 数 、 新闻、 消防、 天津 、 御 性、 杭州 … 


(2) 关联 词 集 扩展 和 替代 词 集 。 计 算 种 子 
词 集 与 语料库 中 其 他 词 的 互信 息 的 大 小 ， 并 降 
序 排列 ， 得 到 最 终 有 175 个 词汇 的 关联 词 集 。 
如 “ 揭 走 ”的 扩展 词 包括 : 找到 、 造 谣 、 逝 去 、 倒 
霉 、 最 近 、 诅 咒 、 资 助 、 真 相 、 折 磨 等 。 

种 子 词 雁 代词 集 包 含 了 300 个 种 子 词 的 拼 
音 、 英 文 以 及 缩写 简写 形式 ， 如 帮忙 的 替代 词 
有 : Help, bangmang, bm 等 ， 酬 金 的 奉 代 词 
有 : Remuneration, fee, pay, choujin, cj 等 。 

至 此 ， 整 个 谣言 敏感 词 库 构建 完成 ， 敏 感 
词 库 包含 种 子 词 集 300 个 , 近似 词 集 1785 个 , 关 
联 词 集 175 个 ,替代 词 集 300 个 , 共计 2 260 个 。 
4.4 微 博 谣言 识别 

Scd 53 FEX T 2018 4F. 1 H 8] 2018 4 3 
月 期 间 ， 新 浪 微 博 “ 衣 言 粉碎 机 ”以 及 各 地 区 
辟谣 平台 上 发 布 的 5 000 条 谣言 数据 ， 同 时 把 
取 了 包括 中 国 新 闻 网 、 今 日 头条 、 央 视 新 闻 在 
内 的 微 博 大 V 账号 的 正常 微 博 5 000 条 。 将 这 
10 000 条 微 博 作为 测试 数据 ， 以 验证 敏感 词 库 
对 谣言 识别 的 提升 作用 。 

从 混合 的 10 000 条 微 博 数据 中 提取 传统 特 
征 和 敏感 词 特征 ， 将 其 作为 输入 数据 。 传 统 特 
征 包 括 发 布 该 微 博 的 用 户 信 息 (用户 粉丝 数 、 关 


E, K, JA. WHE. øi, BW, PH., W w Ax, ATF, wie, E HE E, 
局 、 发 现 、 天 地 、 血 压 、 此 次 、 余 香 、 喝 、 引 发 、 捅 头 、 真 的 、 兰 、 版 、 海 域 、 七 、 警 、 接 力 、 唯 一 、 


注 数 、 注 册 事 件 、 已 发 布 微 博 数量 、 是 否 验证 
用 户 ) 、 微 博 的 结构 特征 〈 转 发 数量 、 微 博 的 
长 度 、 是 否 包 含 ”@”、 是 否 包 含 标签 、 是 否 
包含 URL、 是 否 含有 表情 符号 、 标 点 符号 的 使 
用 情况 、 是 否 含有 第 一 人 称 等 ) 以 及 每 条 微 博 
所 有 词 的 词 向 量 加 和 平均 值 。 敏 感 词 特征 包括 
敏感 词 的 个 数 和 敏感 词 得 分 总 和 。 

利用 以 上 提取 的 微 博 特 征 ， 通 过 随机 条 
林 、SVM、GBRT、CNN BiLSTM, TextCNN 
等 分 类 模型 构建 微 博 谣 言 分 类 器 。 由 于 重点 在 
谣言 的 识别 ， 因 此 ， 本 文 要 求 谣言 的 召回 率 (本 
身 是 谣言 且 被 正确 识别 出 来 的 比例 ) 尽量 大 ， 准 
确 率 尽量 高 。 实 验 中 采用 十 折 交 叉 验 证 ， 多 种 
算法 的 准确 率 和 召回 率 在 加 入 敏感 词 库 特征 前 
后 的 对 比 结果 如 表 3 所 示 : 


表 3 敏感 词 库 特 征 对 谣言 判别 的 效果 


判别 模型 传统 特征 传统 特征 + 敏感 词 特征 
准确 率 ”召回 率 ” 准确 率 召回 率 
随机 森林 79.82% 62.98% 89.29% 85.10% 
GBRT 81.44% 65.65% 92.65% 86.71% 
SVM 80.71% 66.09% 85.94% 83.22% 
CNN 80.38% 72.66% 91.12% 83.54% 
BiLSTM 82.68% 73.54% 95.26% 88.67% 
TextCNN 81.25% 77.12% 93.48% 86.09% 
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通过 实验 可 知 ， 当 敏感 词 特征 和 传统 特征 
融合 之 后 ， 各 种 分 类 方法 的 准确 率 和 召回 率 都 
有 大 幅 的 提升 ， 其 中 BiLSTM 的 准确 率 超 过 
95%， 召 回 率 也 接近 90%。 可 以 看 出 ， 谣 言 敏 
感 词 库 的 构建 在 提升 微 博 谣 言 的 识别 率 方面 达 
到 了 预期 的 效果 。 


全 结语 


网 络 谣言 敏感 词 库 是 证 言 识 别 的 重要 基 
础 ， 笔 者 旨 在 构建 敏感 词 库 并 用 辅助 实验 证 明 
对 谣言 微 博 识别 的 有 效 性 。 利 用 大 量 语料库 ， 笔 
者 构建 了 一 个 基于 敏感 热度 L-CPBL 抽 词 算法 
及 其 相似 词 和 扩展 词 的 语言 敏感 词 库 。 第 一 步 
是 种 子 词 集 的 提取 ，L-CPBL 抽 词 算法 是 一 种 
无 词典 参考 的 快速 抽 词 算法 ， 同 时 结合 改进 
的 LTC 权重 以 及 位 置 权重 因子 ， 对 请 言 敏 感 词 
库 的 种 子 词 集 的 提取 更 准确 ; 然后 基于 词 向 量 
模型 空间 优化 以 及 聚 类 算法 对 种 子 词 集 进行 扩 
R, 综合 得 到 适用 于 谣言 的 敏感 词 库 。 笔 者 构 
建 的 敏感 词 库 适 用 于 微 博 类 社交 短文 本 ， 并 且 
构建 过 程 不 依赖 于 人 工 专家 的 识别 挑选 ， 可 基 
于 语料库 同步 更 新 ， 因此 节省 了 时 间 与 费用 , 提 
高 了 效率 。 

笔者 创建 的 谣言 敏感 词 库 具 有 时 效 性 ， 需 
要 不 断 收集 大 量 谣言 语 料 ， 而 谣言 语 料 需 依 赖 
官方 公布 的 谣言 信息 作为 标注 语 料 ， 使 得 敏感 
词 库 的 更 新 需要 消耗 较 多 的 时 间 和 资源 ， 可 对 
敏感 词 库 的 更 新 进行 进一步 研究 ， 引 入 时 序 算 
法 或 者 从 传播 的 方面 进行 研究 ， 以 便 更 好 地 解 
决 时 效 性 问题 。 
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Construction of Sensitive Thesaurus for Network Rumors 
— —Taking the Microblog Rumors as an Example 


Xia Song Lin Rongrong Liu Kan 

School of Information and Safety Engineering, Zhongnan University of Economics and Law, Wuhan 430074 

Abstract: [Purpose/significance] The network rumors seriously influent the spread of normal 
information on the internet. The purpose of this paper is to construct a sensitive lexicon on microblog 
rumors and to improve the recognition accuracy of the network rumors. [Method/process] According to the 
characteristics of microblog's short text on social networking platforms, this paper focuses on construction of 
the microblog sensitive thesaurus, which is built up through LBCP algorithm and extension of multiple level 
words. At first, the method directly extracts words through LBCP algorithm, which considers the cohesion 
and polymerization of rumor words. And then, based on the core words, multiple level words are expanded 
to get sensitive thesaurus. [Result/conclusion] In addition to the features of the text, user characteristics, 
propagation characteristics, emotional analysis, and rumor features based on sensitive thesaurus are exploited. 
Experimental results show that the accuracy of microblog's rumor recognition can be improved greatly based 
on sensitive thesaurus. 


Keywords: sensitive thesaurus word embedding feature space network rumors 
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